iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 22
0
自我挑戰組

python30天自學筆記系列 第 22

Day 22. 網路爬蟲 Web Crawler 基本教學

  • 分享至 

  • xImage
  •  

今天要來介紹Python 網路爬蟲 Web Crawler

基本流程

1.連線到特定網址,抓取資料
2.解析資料,取得實際想要的部分

抓取資料

關鍵心法

盡可能讓程式模仿一個普通使用者的樣子

解析資料

JSON格式資料

使用內建json模組即可

HTML格式資料

使用第三方套件BeautifulSoup來做解析

安裝套件

PIP套件管理工具:安裝Python時,就一起裝在電腦裡了
安裝BeautifulSoup:pip install beautifulsoup4

範例程式

1.太過於直接,無模仿普通使用者,故訪問被拒絕
https://ithelp.ithome.com.tw/upload/images/20191007/20121028ikgpAOys8A.jpg
2.模仿普通使用者
https://ithelp.ithome.com.tw/upload/images/20191007/20121028DUhSOShoQb.jpg
3.安裝第三方套件BeautifulSoup
https://ithelp.ithome.com.tw/upload/images/20191007/20121028lT0djNxapi.jpg
4.抓取網頁標題
https://ithelp.ithome.com.tw/upload/images/20191007/201210285funk8ZGKM.jpg
5.抓取單一文章標題
https://ithelp.ithome.com.tw/upload/images/20191007/201210289C20qzLbXy.jpg
6.抓取所有文章標題
https://ithelp.ithome.com.tw/upload/images/20191007/20121028UweOGDYEtR.jpg


上一篇
Day 21. 實體物件的建立與使用 - 下篇 - 實體方法 - Instance Methods
下一篇
Day 23. Flask 網站開發 - 基礎環境建置教學
系列文
python30天自學筆記30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言